技术的最新进步导致了社交媒体使用的提高,这最终导致了大量的用户生成的数据,这也包括可恨和令人反感的演讲。社交媒体中使用的语言通常是该地区英语和母语的结合。在印度,印地语主要用于使用英语,并经常用英语进行代码开关,从而产生了hinglish(印地语+英语)语言。过去,已经采用了各种方法,以使用不同的机器学习和深度学习技术对混合代码的Hinglish仇恨言论进行分类。但是,这些技术利用了在计算上昂贵且具有高内存要求的卷积机制的复发。过去的技术还可以利用复杂的数据处理,使现有技术非常复杂且不可持续以更改数据。我们提出了一种更简单的方法,不仅与这些复杂的网络相当,而且还超出了子词令牌化算法(如BPE和Umigram)以及基于多头的注意技术的性能,准确性为87.41%,而F1得分为87.41%和F1得分。标准数据集上的0.851。有效地利用BPE和UMIGRAM算法有助于处理非惯性的Hinglish词汇,从而使我们的技术简单,高效且可持续,可在现实世界中使用。
translated by 谷歌翻译